Скрыть
Раскрыть

ISSN 1998-0663 (print),
ISSN 2587-8166 (online)

English version: ISSN 2587-814X (print),
ISSN 2587-8158 (online)

Дьяконов А. Г.1
  • 1 Московский государственный университет имени М.В. Ломоносова; Вычислительный центр им. А.А.Дородницына Российской академии наук, 119991, Москва, ГСП-1, Ленинские горы, МГУ им. М.В.Ломоносова, 1, стр. 52

Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей

2014. № 1 (27). С. 68–77 [содержание номера]

Дьяконов Александр Геннадьевич - доктор физико-математических наук, профессор кафедры математических методов прогнозирования, факультет вычислительной математики и кибернетики, Московский государственный университет имени М.В. Ломоносова; старший научный сотрудник, Вычислительный центр им. А.А.Дородницына Российской академии наук.
Адрес: 119991, Москва, ГСП-1, Ленинские горы, МГУ им. М.В.Ломоносова, 1, стр. 52.
E-mail: djakonov@mail.ru

     Рассмотрены две задачи, связанные с поведением клиентов сети супермаркетов: прогнозирование даты следующего визита каждого клиента и суммы его покупок. Первая задача сведена к задаче оценки вероятностей визитов, вторая ­– к задаче восстановления плотностей распределений сумм покупок каждого пользователя. Для решения указанных задач предложено использовать взвешенные схемы: каждой точке выборки ставится в соответствие вещественное неотрицательное число (вес). Веса позволяют учитывать дополнительную информацию, например устаревание данных (точки соответствующие старым данным имеют меньшие веса). В работе рассмотрено несколько весовых схем (способов приписывания весов точкам выборки), произведена их настройка (оптимизация качества оценки вероятности или плотности по параметрам весовой схемы). Показано, что использование весовых схем не приводит к переобучению, т.е. настройка весов на обучении не понижает качество на независимой контрольной выборке. Показана возможность использования ансамблирования для повышения качества решения рассмотренных задач, т.е. построения нескольких алгоритмов и составления их линейной комбинации. Все эксперименты произведены на реальных данных крупного Международного конкурса по разработке алгоритмов анализа данных. Специфика данных (отсутствие праздников на финальном временном отрезке статистики) позволила при решении указанных задач сосредоточиться исключительно на статистических методах решения. Кроме того, рассмотрены вопросы построения алгоритмов, которые одновременно решают обе задачи: прогнозирования даты следующего визита и суммы покупок. Показано, что не всегда их можно решать независимо. Предложен метод оптимизации функционала, который оценивает решение обеих задач.

BiBTeX
RIS
 
 
Rambler's Top100 rss